查看原文
其他

#凯哥读报告#[17]麦肯锡:面向未来驱动创新的数据架构

筱愚她爸 凯哥讲故事系列 2023-05-02
“ 我最近在研究数据和人工智能领域的趋势,我计划把Google上所有能够找到的,有一些内容的趋势行业报告都通读一遍,然后总结出一个人工智能2020趋势。这是来自麦肯锡的数据架构的报告%
              麦肯锡发布了一篇报告,《打造面向未来驱动创新的数据架构》。 整个报告7页,有些不错的洞见和趋势,我翻译出来给大家共享。 在过去的几年中,组织不得不迅速采取行动,在旧有基础架构的基础上部署新数据技术,以推动市场驱动型创新,例如个性化报价,实时预警和预测性维护。 从数据湖  到客户分析平台再到流处理的这些技术附加功能极大地增加了数据架构的复杂性,通常极大地妨碍了组织提供新功能,维护现有基础架构以及确保人工智能完整性的持续能力 ( AI)模型。 当前的业务需求不能够容忍这样的阻碍存在。亚马逊和谷歌等领导者一直在利用人工智能技术创新  来颠覆传统的商业模式,在这样的压力下,传统企业更要重新构建业务的各个方面,以跟上发展的步伐。 云  提供商已经推出了最前沿的产品,例如可以立即部署的Serverless数据平台,从而使采用者可以享受更快的上市时间和更大的敏捷性。Analytics(分析)用户要求使用更多的无缝工具,例如自动模型部署平台,以便他们可以更快地使用新模型。许多组织都采用了应用程序编程接口(API) 将来自不同系统的数据公开到其数据湖,并迅速将接口直接集成到前端应用程序中。现在,随着公司应对由COVID-19大流行引起的前所未有的社会危机 并为下一次正常运转做准备,对灵活性和速度的需求在不断扩大。 对于要建立竞争优势甚至保持同等优势的公司,他们将需要一种新的方法来定义,实施和集成其数据堆栈,同时利用云(除了基础架构即服务)以及新的概念和组件。 六步法打造颠覆性的数据架构我们已经观察到公司正在对其数据架构蓝图进行六项根本性的转变,这些转变可以更快地交付新功能并大大简化现有的架构方法(图)。
它们涉及几乎所有数据活动,包括采集,处理,存储,分析和公开。尽管组织可以在不改变其核心技术堆栈的情况下进行一些更改,但是许多组织仍需要仔细地重新架构现有的数据平台和基础架构,包括以前使用的旧技术和较新技术。                这为建立基本用例(例如自动报告)的功能而进行的投资通常可能在数千万美元之内,而用于部署尖端功能的体系结构组件(例如实时服务)的投资则可能高达数亿美元。为了与最具创新力的颠覆者竞争。因此,对于组织而言,制定清晰的战略计划至关重要,数据和技术领导者将需要做出大胆的选择,以优先考虑那些将最直接影响业务目标的转变,并投资于适当级别的体系结构。结果,一家公司之间的数据架构蓝图通常看起来非常不同。如果做得好,投资回报率将非常可观(一家美国银行每年可赚取5亿美元以上,而一家石油和天然气公司则可实现12%至15%的利润率增长)。我们发现,这些类型的收益可以来自许多领域:节省IT成本,提高生产率,降低法规和运营风险以及提供全新的功能,服务乃至整个业务。那么组织需要考虑哪些关键变化? 

1.从本地部署(on-premise)到基于云(data-cloud)的数据平台

云可能是一种全新的数据架构方法的最具颠覆性的驱动力,因为它为公司提供了一种快速扩展AI工具和功能以获取竞争优势的方法。诸如Amazon(通过Amazon Web Services),Google(通过Google Cloud Platform)和Microsoft(通过Microsoft Azure)之类的主要全球云提供商已经彻底改变了各种规模的组织的来源,部署和运行数据基础架构,平台和方式的方式。让数据和智能大规模应用于企业的所有用例。例如,一家公用事业服务公司将基于云的数据平台与容器技术相结合,该技术用微服务(例如搜索账单数据或向帐户添加新属性)来模块化应用程序功能。这使公司能够在几天而不是几个月内向大约100,000个业务客户部署新的自助服务功能,为最终用户提供大量的实时库存和交易数据以进行分析,并通过在云中“缓冲”交易来降低成本而不是在更昂贵的本地旧系统上。 启用概念和组件
  • 无服务数据平台(例如Amazon S3和Google BigQuery)使组织可以无限扩展地构建和运行以数据为中心的应用程序,而无需麻烦地安装和配置解决方案或管理工作负载。此类产品可以降低所需的专业知识,将部署时间从数周缩短至几分钟,并且几乎不需要运营开销。
  • 使用Kubernetes的容器化数据解决方案(可通过云提供商以及开放源代码获得,并且可以快速集成和部署)使公司能够解耦和自动化其他计算能力和数据存储系统的部署。此功能对于确保具有更复杂设置的数据平台(例如,将数据从一个应用程序会话保留到另一个应用程序会话所需的数据平台,以及具有复杂备份和恢复要求的数据平台)可以扩展以满足需求特别有用。

2.从批处理到实时数据处理

实时数据消息和流功能的成本已大大降低,为主流使用铺平了道路。这些技术实现了许多新的业务应用:例如,运输公司可以在出租车到达时向客户提供准确到秒的到达预测;保险公司可以分析来自智能设备的实时行为数据以个性化费率;而且制造商可以根据实时传感器数据预测基础设施问题。诸如订阅机制之类的实时流功能使数据消费者(包括数据集市和数据驱动的员工)可以订阅“主题”,以便他们可以不断获取所需的交易。通用数据湖通常充当此类服务的“大脑”,保留所有细粒度的交易。增强概念和组件
  •  诸如Apache Kafka之类的消息传递平台提供了完全可扩展,持久且具有容错能力的发布/订阅服务,该服务可以每秒处理和存储数百万条消息以供立即使用或以后使用。与传统的企业消息队列相比,这可以支持实时用例,绕过现有的基于批处理的解决方案,并且占用空间(和成本基础)更轻。
  • 流处理和分析解决方案(  例如Apache Kafka流,Apache Flume,Apache Storm和Apache Spark流)允许对消息进行实时直接分析。该分析可以基于规则,也可以包括高级分析,以从数据中提取事件或信号。通常,分析会集成历史数据以比较模式,这在推荐和预测引擎中尤其重要。
  •  诸如Graphite或Splunk之类的警报平台可以向用户触发业务操作,例如通知销售代表如果他们没有达到其日常销售目标,或者将这些操作集成到可能在企业资源计划(ERP)或客户关系中运行的现有流程中管理(CRM)系统。

3.从预集成的商业解决方案到模块化的同类最佳平台

为了扩展应用程序,公司通常需要远远超出大型解决方案供应商提供的旧数据生态系统的范围。现在,许多公司正在朝着高度模块化的数据架构迈进,该架构使用了同类最佳的,经常使用的开源组件,可以根据需要用新技术替换它们,而不会影响数据架构的其他部分。前面提到的公用事业服务公司正在过渡到这种方法,以快速向数百万客户提供新的,数据繁重的数字服务,并大规模连接基于云的应用程序。例如,它提供了有关客户能源消耗的准确每日视图,并提供了实时分析见解,将个人消费与对等群体进行了比较。该公司建立了一个独立的数据层,其中包括商业数据库和开源组件。数据通过专有的企业服务总线与后端系统同步,托管在容器中的微服务在数据上运行业务逻辑。启用概念和组件
  • 数据管道和基于API的接口  通过使数据团队免受不同层的复杂性的影响,缩短了上市时间,并减少了在现有应用程序中引起新问题的机会,从而简化了不同工具与平台之间的集成。这些接口还允许随着需求的变化更容易地更换单个组件。
  •  诸如Amazon Sagemaker和Kubeflow之类的分析工作台可在高度模块化的架构中简化端到端解决方案的构建。这样的工具可以与各种各样的基础数据库和服务连接,并允许高度模块化的设计。

4.从点对点到解耦数据访问

通过API公开数据可以确保对访问查看和修改数据的直接访问受到限制和安全,同时还可以提供对常见数据集的更快,最新的访问。这使得数据可以在团队之间轻松重用,从而加速访问并实现分析团队之间的无缝协作,从而可以更有效地开发AI用例。例如,一家制药公司正在通过API为所有员工建立内部“数据市场”,以简化和标准化对核心数据资产的访问,而不是依赖于专有接口。该公司将在18个月内逐步将其最有价值的现有数据Feed迁移到基于API的结构,并部署API管理平台以向用户展示API。启用概念和组件
  • API管理平台  (通常称为API网关)对于创建和发布以数据为中心的API,实现使用策略,控制访问以及衡量使用情况和性能是必需的。该平台还允许开发人员和用户搜索现有数据接口并重用它们,而不是构建新的数据接口。API网关通常是 嵌入为数据中心内的单独区域,但也可以将其开发为中心外的独立功能。
  •  通常需要一个数据平台来“缓冲”核心系统之外的事务。这样的缓冲区可以由诸如数据湖之类的中央数据平台或在分布式数据网格中提供,分布式数据网格是由为每个业务域的预期数据创建的最佳平台(包括数据湖,数据仓库等)组成的生态系统。使用情况和工作量。例如,一家银行建立了一个柱状数据库,以直接向在线和移动银行应用程序提供客户信息(例如最近的金融交易),并减少大型机上昂贵的工作量。 

5.从企业仓库到基于业务域的体系结构

许多数据架构领导者已经从中央企业数据湖转向“域驱动”设计,这些设计可以定制和“适合目的”以缩短新数据产品和服务的上市时间。通过这种方法,尽管数据集可能仍驻留在相同的物理平台上,但每个业务领域(例如,市场营销,销售,制造等)中的“产品所有者”都被要求以易于使用的方式来组织其数据集。既适用于其域内的用户又适用于其他业务域中的下游数据使用者。这种方法需要仔细权衡,以免变得零散和效率低下,但作为回报,它可以减少在湖中构建新数据模型之前花费的时间,通常从几个月缩短到几天,一家欧洲电信提供商使用了基于分布式域的架构,因此销售和运营人员可以将客户,订单和账单数据提供给数据科学家,以用于AI模型或直接通过数字渠道提供给客户。该组织没有建立一个中央数据平台,而是部署了由公司销售和运营团队中的产品所有者管理的逻辑平台。激励产品所有者促进使用数据进行分析,并使用数字渠道以及论坛和黑客马拉松来推动采用。启用概念和组件
  • 数据基础架构作为平台  提供了用于存储和管理的通用工具和功能,以加快实施速度并减轻数据生产者构建自己的数据资产平台的负担。
  • 数据虚拟化技术始于诸如客户数据之类的利基领域,如今已在整个企业中用于组织对分布式数据资产的访问和集成。
  • 数据分类工具  可在无需完全访问或准备的情况下提供企业搜索和数据浏览。该目录通常还提供元数据定义和端到端接口,以简化对数据资产的访问。

6.从严格的数据模型到灵活的,可扩展的数据模式

来自软件供应商的预定义数据模型和满足特定业务智能需求的专有数据模型通常以高度标准化的模式构建,这些模式带有刚性数据库表和数据元素,以最大程度地减少冗余。尽管此方法仍然是报告和以法规为中心的用例的标准,但它也要求组织在要合并新的数据元素或数据源时经历漫长的开发周期并拥有丰富的系统知识,因为任何更改都会影响数据完整性。 为了在探索数据或支持高级分析时获得更大的灵活性和强大的竞争优势,公司正在向“架构简化”方法发展,它们使用物理表较少的非规范化数据模型来组织数据以实现最佳性能。这种方法提供了许多好处:灵活的数据探索,存储结构化和非结构化数据的更大灵活性以及降低的复杂性,因为数据领导者不再需要引入其他抽象层,例如高度规范化的表之间的多个“联接”来查询关系数据。 启用概念和组件
  • 诸如数据点建模之类的数据仓库2.0技术可以确保数据模型可扩展,以便将来可以在有限的中断范围内添加或删除数据元素。
 
  • Graph数据库是NoSQL数据库的一种,近年来受到关注。通常,NoSQL数据库非常适合需要大量可伸缩性和实时功能的数字应用程序,也非常适合服务于AI应用程序的数据层,这归功于它们能够利用非结构化数据。尤其是图数据库,提供了以强大而灵活的方式对数据中的关系进行建模的功能,许多公司正在使用图数据库来构建主数据存储库,以适应不断变化的信息模型。
 
  •  诸如Azure Synapse Analytics之类的技术服务允许通过将表结构动态应用于文件来查询类似于关系数据库的基于文件的数据。这使用户可以灵活地在访问文件中存储的数据时继续使用通用接口(例如SQL)。
 
  • 使用JavaScript对象表示法(JSON)  来存储信息,使组织可以更改数据库结构而不必更改业务信息模型。
如何启动数据技术正在迅速发展,做出了定义并朝着三到五年目标架构状态的传统努力,既有风险又有效率。制定实践使他们能够快速评估和部署新技术,以便他们快速适应,从而为数据和技术领导者提供最佳服务。这里有四种重要的做法:
  • 将测试和学习的心态应用于架构构建,并尝试使用不同的组件和概念。这种敏捷实践已经在应用程序开发中应用了很长时间,并且最近已经转移到数据空间中。例如,领导者可以参与较小的预算,创建最低限度的预算或创建可行的产品,或将现有的开放源代码整理在一起,而不是参与关于最佳设计,产品和供应商的讨论,以找出“完美”的选择,然后再进行冗长的预算批准。创建临时产品的工具,将其发布到生产环境(使用云来加速),以便它们可以在扩展和发展之前展示其价值。
  • 建立数据“部落”,由数据管理人员,数据工程师和数据建模人员组成的团队与端到端的责任制一起构建数据体系结构。这些部落还致力于建立标准的,可重复的数据和特征工程流程,以支持开发高度可建模的数据集。这些敏捷的数据实践可以帮助加快新数据服务的上市时间。
  • 投资DataOps(用于数据的增强的DevOps),这有助于加快新组件在数据体系结构中的设计,开发和部署,以便团队可以根据反馈快速实施和频繁更新解决方案。
  • 创建一种数据文化,使员工渴望在其角色中使用和应用新的数据服务。实现此目标的一个重要工具是确保数据策略与业务目标相关联,并反映在高级管理人员给组织的消息中,这可以帮助加强这项工作对业务团队的重要性。
 随着大多数组织的数据,分析和AI越来越嵌入日常运营中,很明显,对于创建和发展以数据为中心的企业而言,必须采用截然不同的数据架构方法。那些采用这种新方法的数据和技术领导者将可以更好地将自己的公司定位为敏捷,有弹性和在未来面临任何挑战时具有竞争力。 原文链接:https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/how-to-build-a-data-architecture-to-drive-innovation-today-and-tomorrow?cid=other-eml-alt-mip-mck&hlkid=311b82e519144abfb8a31c2bf183d426&hctky=9906934&hdpid=0391b7d8-d3d6-44ec-aba9-5cc3193e19b0





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存